کاوش الگوهای تکراری پرسود در پایگاه داده های بزرگ
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده مهندسی برق و الکترونیک
- نویسنده حسین زلفی
- استاد راهنما محمدهادی صدرالدینی غلامحسین دستغیبی فرد اشکان سامی
- سال انتشار 1391
چکیده
دادهکاوی مجموعه اقلام پرسود در پایگاه داده تراکنشی، منجر به شناسایی مجموعه اقلام با بالاترین سودمندی میشود. گرچه در سال های اخیر الگوریتمهای بسیاری برای این نمونه کار پیشنهاد شده است، اما این الگوریتمها، اکثراً، کارائی خود را صرف تولید مجموعه اقلام کاندید برای تولید مجموعه اقلام پرسود مینمایند. چنانچه پایگاه داده دارای تعداد تراکنشهای بسیار زیاد و یا دارای مجموعه اقلام پرسود خیلی طولانی باشد، تولید مجموعه اقلام کاندید بسیار دشوار و زمانبر خواهد شد. در این پایاننامه، به منظور حل مشکل مذکور، الگوریتم جدیدی به نام pup-growth، ارائه شده است. این الگوریتم، کاوش مجموعه اقلام پرسود را به کمک چند راهبرد موثر برای هرس کردن مجموعه اقلام کاندید و استفاده از سیستم های چند هستهای انجام میدهد. در این الگوریتم، اطلاعات مجموعه اقلام در ساختار داده up-tree ذخیره می شود. مجموعه اقلام کاندید، به صورت کارا و تنها با دو اسکن پایگاه داده تولید میشوند. با استفاده از موازیسازی، جنگلی از up-tree ها برای ذخیره مجموعه اقلام، ایجاد می شود. این امر موجب میشود که کارائی الگوریتم در مقایسه با الگوریتم اولیه، وقتی از مجموعه داده واقعی و ساختگی استفاده می شود، بهبود چشمگیری یابد. به طوریکه بهبود بدست آمده به میزان 65% میباشد. مشاهدات نشان می دهد، هنگامی که تعداد تراکنشهای طولانی، زیاد باشد، الگوریتم ما بسیار کارا است.
منابع مشابه
کاوش الگوهای تکراری در جریان های داده بر اساس مدل پنجره لغزنده
در مسئله کاوش الگوهای تکراری به دنبال مجموعه هایی هستیم که در تعداد قابل توجهی از تراکنش ها (رکوردها) دیده می شوند. کاوش الگوهای تکراری در جریان های داده کاربرد زیادی در صنعت، تجارت و علوم مختلف دارد. به دلیل سرعت زیاد، بی پایان بودن، حجم بالا و ماهیت تغییر کننده محتوای جریان های داده، یافتن الگوهای تکراری در این نوع داده ها مسئله ای چالش برانگیز است. مدل پنجره لغزنده یکی از مدل های محبوب و پرک...
15 صفحه اولکاوش الگوهای تکرار شونده در جریانهای داده
یافتن دسته داده های تکراری در جریان پیوسته تراکنشها یکی از مسائل حیاتی در کاربردهایی نظیر تحلیل سبد خرید، مانیتورینگ شبکه و پیشبینی فروش انبار می باشد. پنجره لغزان یکی از مدلهایی است که به دلیل مدیریت تغییر محتوا، مصرف حافظه محدود و سرعت پردازش کم به شکل گسترده در یافتن دسته داده های تکراری در جریانهای داده استفاده شده است. یک الگوریتم مبتنی بر مدل پنجره ای لغزان به یک ساختمان داده کارا احتیاج...
15 صفحه اولارزیابی مدلهای داده والگوریتمها در پایگاه-های داده اشیاء متحرک
این مقاله با تمرکز روی رویکرد تاریخچهی حرکت در پایگاههای داده اشیاء متحرک، به ارزیابی ساختار و مدل داده پرداخته و سپس الگوریتمها به همراه پیچیدگی هر کدام، به طور جداگانه بحث گردیدهاند. همچنین با معرفی معیارها به عنوان ابزاری مناسب برای مقایسه پایگاههای داده اشیاء متحرک، از پرسوجوها و دادههای استفاده شده در معیار BerlinMod، برای ارزیابی و انجام تحلیلها استفاده شده است. نهایتاً به ارائهی...
متن کاملکاوش برخط الگوهای پویای زمانی در داده های جریانی
کاوش در جریان داده فرایندی است که منجر به استخراج دانش از جریانی سریع از داده های پیوسته می شود. در سالهای اخیر، به دلیل اهمیت کاربردهای آن و پیشرفت در تکنولوژی سخت افزاری بسیار مورد توجه قرار گرفته شده است. در بسیاری از زمینه های کاربردی مانند شبکه های کامپیوتری، بازارهای مالی و مبادلات ارزی، مکالمات تلفنی، کارت های اعتباری، مراکز داده و سرورها، تصاویر ویدئویی، شبکه حسگرها، رادارها، ماهواره ها...
15 صفحه اولپایگاه های داده شبکه ای بارش
دسترسی به دادههای عناصر اقلیمی یکی از پیش نیازهای اساسی در هر مطالعه اقلیمی به شمار میآید. در گذشته دادههای پیمونگاههای سازمانهای هواشناسی و مؤسسات وابسته به آن مرسومترین و قابل اعتمادترین دادهها برای مطالعات اقلیمی محسوب میشد و استفاده از دادههای بارش پیمونگاهها پارادایم مسلط در بین اقلیمشناسان به شمار میآمد. اما در دهههای اخیر، ناتوانیها و ایرادات این پارادایم به خصوص در تعم...
متن کاملالگوریتم های هوشمند تطابق چهره در پایگاه داده های بزرگ
تطابق چهره بصورت خودکار یکی از کارهای چالش برانگیزی است که در دهمه اخیر توجه زیادی را به خود جلب کرده است. الگوریتم های مختلفی برای تطابق چهره وجود دارند. کارایی این الگوریتم ها روی پایگاه داده های مختلف آزمایش شده است. برای اینکه این الگوریتم ها قابل پیاده سازی و استفاده باشند، باید بتوان از آنها روی پایگاه داده های بززگ استفاده کرد. هنگام اجرا روی پایگاه داده های بزرگ علاوه بر کارایی، زمان اج...
15 صفحه اولمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده مهندسی برق و الکترونیک
کلمات کلیدی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023